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摘要 : [目的 /意义 ] 当 前 用 户 迫 切 需要 在 极度 复杂 的 信息 当中 高 效 获 取 具 有 价值 的 信息 ,在 这 
种 背景 下 ,本文 提出 一 种 多 特征 融合 的 自动 标 引 方法 以 提高 文本 标 引 的 准确 性 。[ 方 法 /过 程 ] 
首先 将 文本 正文 和 摘要 同时 作为 标 引 源 ， 接 着 分 别 采用 Keybert 方法 和 TF-IDF 方法 处 理 摘 
要 和 正文 , 同时 结合 统计 学 习 法 的 词 频 特 征 和 机 器 学 习 法 的 语义 特征 获取 两 组 文本 候选 标 引 
词 ;最 后 通过 语义 相似 度 计算 做 融合 处 理 结合 两 种 方法 的 优势 以 体现 对 标 引 结 果 的 准确 性 和 
全 面 性 的 整体 把 握 。[ 结 果 /结论 ] 实 验 表 明 ， 基 于 多 特征 融合 的 文本 自动 标 引 是 可 行 的， 具有 
较 好 的 标 引 结果 。 
ó 关键 词 ， 自 动 标 引 ”多 特征 融合 “候选 词 提取 
分 类 号 :G353 
1 引言 
随 着 大 数据 时 代 的 到 来 ， 用 户 迫 切 需要 在 极度 复杂 的 信息 当中 高 效 获取 具有 价值 的 信 
息 ， 解 决 信息 资源 无 限 增长 和 信息 检索 低下 的 矛盾 。 关 键 词 是 人 们 快速 了 解 文档 内 容 、 把 握 
主题 的 重要 方式 , 被 广泛 应 用 于 新 闻 、 科 技 论文 领域 ,以 方便 用 户 高 效 地 管理 和 检索 文档 中。 
文本 自动 标 引 就 是 利用 计算 机 系统 模仿 人 的 标 引 活动 从 拟 存储 、 检 索 的 事实 情报 或 文献 (是 
~~ 目 、 摘 要 、 正 文 ) 中 自动 地 标注 出 关键 词 的 过 程 。 与 传统 手工 标 引 相 比 ， 自 动 标 引 具 有 处 理 
= 能 力 强 、 处 理 效率 高 、 成 本 低 、 一 致 性 和 稳定 性 高 的 优势 ， 更 能 适应 信息 社会 用 户 的 检索 需 
L RO, ERARE LODE 炸 式 增长 ， 文 本 自动 标 引 已 成 为 用 户 获取 核心 内 容 的 重要 手 
段 。 目 前 文本 自动 标 引 研 究 在 标 引 准确 性 和 全 面 性 上 仍 在 不 断 探索 。 
文本 自动 标 引 可 分 为 自动 抽 词 标 引 和 自动 赋 词 标 引 中 根据 自动 标 引 采 用 的 理论 依据 来 
划分 ， 自 动 标 引 可 以 分 为 统计 分 析 方法 、 语言 分 析 方 法 、 人 工 智能 法 和 混合 方法 申 。 本 文 
是 基于 统计 分 析 法 和 深度 学 习 方 法 相 结合 的 抽 词 标 引 方法 。 不 管 是 统计 学 习 法 、 
语言 分 析 法 还 是 人 工 智能 法 存在 各 自 优势 的 同时 也 有 自身 局 限 性 ,因此 使 用 混合 方法 作为 广 


~ 


“国际 组 织 术语 库 集成 方法 研究 ”项 目 编号 : 


* 本 文系 全 国名 词 委 2020 年 度 科研 项 目 
YB20200011) 研究 成 果 之 一 。 

作者 简介 :， MER, WILE, E-mail: 1157376259@qq.com RHE, HIPGE, WE, 
E-mail: spyer2008@126.com， 研 究 方向 : 知识 组 织 、 自 然 语言 处 理 


本 自动 标 引 方法 成 为 一 种 趋势 。 

综 上 所 述 , 考虑 到 文本 标 引 源 的 局 限 以 及 不 同 标 引 方 法 的 优 劣 问题 ， 本 研究 提出 将 文本 
正文 和 摘要 同时 作为 标 引 源 , 并 结合 统计 学 习 法 的 词 频 特征 和 机 器 学 习 法 的 语义 特征 获取 文 
本 候选 标 引 词 , 再 通过 融合 处 理 结合 两 种 方法 的 优势 以 体现 对 标 引 结果 的 准确 性 和 全 面 性 的 
整体 把 握 。 

2 相关 研究 

有 关 文 本 自动 标 引 的 研究 最 早 在 国外 盛行 , 卢 恩 器 最 先 创 立 了 以 词 频 为 特征 的 统计 标 引 
方法 ， 又 称 词 频 统计 标 引 法 。 我 国 对 文献 信息 自动 标 引 的 研究 开始 于 20 世纪 80 年 代 初 ， 起 
步 比 较 晚 ， 相 较 于 国外 的 研究 还 有 一 定 差 距 四 。 进 入 21 世纪 初 ， 尤 其 是 近年 来 相关 研究 逐 
渐 丰 富 起 来 ， 自 动 标 引 技术 基本 达到 实用 水 平 。 王 小 林 中 在 TF-IDF 的 算法 的 基础 上 ， 将 位 
置 特 征 融入 到 算法 ， 形 成 新 的 基于 词 频 统 计 的 关键 词 提取 方法 。 姜 艺 、 黄 永 四 等 人 在 传统 的 
词 频 特征 以 及 位 置 特征 基础 上 , 融合 词汇 功能 特征 ,使 用 计算 机 领域 的 学 术 文献 基于 分 类 和 
排序 两 种 思想 进行 关键 词 抽取 实验 。 为 了 解决 利用 语义 低 效 和 抽取 语义 重复 的 次 端 ， 有 学 者 
在 2018 年 提出 了 一 种 具有 注意 力 机 制 、 复 制 机 制 和 覆盖 机 制 的 序列 到 序列 框架 印 。 李 千 驹 09 
等 使 用 字符 串 模 式 匹 配 法 ， 基 于 叙 词 表 和 关键 词 词 表 自 动 抽取 关键 词 ， 在 增 量 、 组 合 以 及 排 
序 方面 有 效 优化 了 人 工 标 引 结果 。 国 内 在 赋 词 标 引 的 研究 方面 ， 王 星 ， 刘 伟 上 提出 了 一 种 
基于 文献 间 引用 关系 ， 改 进 遗传 算法 ， 对 学 术 文献 进行 自动 标 引 的 方法 。 章 成 志 02 从 眼 动 
特征 的 选择 、 眼 动 特征 与 文本 特征 的 组 合 这 两 个 方面 , 全 面 考察 通用 语 料 的 眼 动 数据 对 微 博 
关键 词 抽 取 任 务 性 能 的 影响 , 同时 提出 了 一 个 眼 动 数据 的 扩充 方案 用 于 解决 眼 动 数据 集 与 测 
FE 试 数据 集 在 数据 规模 上 相差 较 大 这 一 问题 。 综 上 所 述 ， 我 国 对 自动 标 引 的 研究 正 逐 渐 深 入 ， 

尤其 对 标 引 方法 的 创新 发 展 迅速 。 并且 混合 法 作为 自动 标 引 的 方法 正 逐 渐 受 到 重视 , 因此 采 
取 多 特征 融合 思路 这 一 混合 标 引 方法 作为 文本 自动 标 引 方法 是 值得 深入 探索 的 。 
3 基于 多 特征 融合 方法 的 自动 标 引 模型 

按照 引入 多 特征 的 关键 词 提取 基本 思路 , 在 标 引 模型 提取 关键 词 的 过 程 中 , 尽 可 能 融入 
更 多 特征 关系 来 提高 模型 提取 准确 度 。 文 本 输入 分 为 摘要 类 短文 本 和 正文 类 长 文本 ， 将 
KeyBERT 与 TF-IDF 算法 优势 互补 , 用 KeyBERT 算法 处 理 摘 要 类 短文 本 , TF-IDF 算法 处 理 
正文 类 长 文本 。 并 通过 语义 相似 度 计 算 实现 标 引 词 融 合 。 因此, 多 特征 融合 方法 的 文本 自动 
标 引 模型 在 确定 文本 双 输 入 的 情况 下 , 经 过 融合 处 理 单元 计算 , 输出 标 引 词 表征 文本 核心 内 
。 本 文 提 出 的 多 特征 融合 方法 文本 自动 标 引 模型 如 下 : 
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图 1 多 特征 融合 方法 主题 自动 标 引 模型 

如 上 图 所 示 , 自动 标 引 模型 主要 分 为 输入 、 候 选 词 提取 、 候 选 词 融合 处 理 、 输 出 四 部 分 ， 
依据 信息 重要 程度 与 文本 数量 分 为 短文 本 和 长 文本 , 例如 摘要 是 对 正文 内 容 的 总 结 ,关键 词 
从 摘要 中 提取 出 的 概率 将 会 更 大 , 它 的 文本 数量 虽然 少 但 是 信息 重要 程度 较 高 , 因此 归 类 于 
短文 本 ; 而 正文 内 容 归 类 于 长 文本 。 候 选 词 提取 部 分 负责 输入 文本 候选 词 的 初步 得 选 ， 分 别 
对 应 生成 候选 词 集合 ，KeyBERT 算法 前 期 包括 了 分 词 、 去 停 用 词 等 预 处 理 ， 所 以 在 模型 中 
并 未 单独 列 出 。 候 选 词 融合 处 理 部 分 负责 将 输入 文本 的 候选 词 进行 融合 筛选 , 候选 词 融合 处 
理 单 元 核心 采用 余弦 相似 度 原理 ， 其 结构 组 成 如 下 : 
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图 2 候选 词 融合 处 理 单元 
对 不 同 算法 和 不 同文 本 生成 候选 词 集 进行 融合 处 理 , 候选 词 集 本 身 与 候选 词 
词汇 会 有 具有 较 强 的 凝聚 力 , 其 含义 具有 相似 性 , 往往 相似 性 越 高 的 词汇 越 能 承 当 起 主题 关键 
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词 ， 将 相似 性 高 的 词汇 提取 并 融合 是 候选 词 融合 处 理 模 块 的 核心 工作 。 如 上 图 所 示 ， 实 线 杠 


是 融合 处 理 单元 结构 ， 虚 线 框 是 控制 条 件 ， 经 过 词 集 间 人 遍历 互 融合 ， 在 相似 度 融 合 闵 值 确定 


下 , 高 于 阐 值 的 词汇 将 被 筛选 出 作为 候选 词 ， 再 经 过 最 终 融 合 权 值 序列 条 件 ， 排序 前 列 的 候 


选 词 将 被 确定 为 最 终 关 键 词 集 。 改 变相 似 度 融合 阀 值 和 融合 权 值 序列 会 对 模型 计算 处 理 结果 


产生 微调 ， 后 续 可 通过 实验 方式 取得 较 好 的 设置 参数 。 
多 特征 融合 方法 主题 自动 标 引 模型 能 够 从 文本 不 同 角度 出 发 , 既 考虑 了 摘要 类 短文 本 的 
重要 程度 ， 也 没有 忽略 正文 长 文本 中 体现 出 的 关键 信息 。 它 结合 了 TF-IDF 高 效 性 ， 并 将 语 


义 特征 融合 ， 弥 补 了 上 下 文联 系 不 足 的 缺陷 。 
4 关键 词 抽取 算法 
4.1TF-IDF 关键 词 抽 取 


TFIDF (Term Frequency&Inverse Documentation Frequency) 算法 是 Stilton05] 提 出 的 ， 主 


要 思想 是 : 如 果 一 个 词 在 特定 的 文档 中 出 现 的 频率 越 高 ，TF 值 越 大 ， 代 表 它 表达 该 文档 内 
容 的 能 力 越 强 ， 应 该 被 赋予 较 高 的 权重 ， 如 果 一 个 词 在 一 组 文档 中 出 现 的 范围 越 小 ,计算 得 
到 的 IDF 值 越 小 ， 说 明 它 区 分 文档 内 容 的 能 力 越 强 ， 应 该 被 赋予 较 高 的 权重 。 

TF-IDF 的 计算 公式 如 下 所 示 : 


TF(t,d) 


TF —IDF(t,d) = a 


=TF(t,d)eIDF(T) 


以 上 公式 中 ,t 代表 单词 (term), d 代表 文档 document) , TF (t, d) 代表 单词 {在 
文档 d 中 的 出 现 频次 ，DF O 代表 包含 单词 t 的 文档 数 ，DF 的 倒数 就 是 IDF。 由 此 可 见 ， 
TF-IDF 模型 主要 利用 统计 学 原理 获取 在 当前 文本 中 出 现 频率 高 而 在 其 他 文档 中 出 现 频率 低 
的 词语 ， 即 能 够 代表 文档 特色 的 词语 。 

TFIDF 算法 的 优点 很 明显 : 首先 ，TFIDF 算法 的 原理 简单 且 容 易 实 现 ; 其 次 ， 它 相对 
全 面 地 考虑 到 特征 项 在 单个 文本 中 和 在 文本 集 
项 更 具 代 表 性 。 
4.2KeyBERT 关键 词 抽取 

KeyBERT 是 一 种 新 型 且 简 单 的 关键 字 抽取 技术 ， 其 原理 是 利用 BERT RAK GES 
档 最 相似 的 关键 词 和 关键 字 短语 。BERT 模型 最 终 的 目的 是 要 使 用 无 标注 语 料 训练 来 获得 文 
本 之 中 的 语义 信息 ， 简 单 的 来 说 就 是 文本 所 具 有 的 语义 表示 ， 之 后 将 语义 表示 在 某 个 特定 
的 NLP (Natural Language Processing) 任务 中 作 微 调 ， 最 终 应 用 于 该 NLP 任务 。 在 基于 深 
度 神 经 网 络 的 NLP 方法 中 ， 文 本 中 的 词 通常 都 用 一 维 向 量 来 表示 《一 般 称 之 为 " 词 向 量 ”) 。 
因此 ， 对 于 BERT 模 型 之 中 的 核心 信息 输入 主要 是 指 原始 词 的 一 些 向 量 ， 对 于 此 向 量 可 以 进 
行 初始 化 ， 而 且 也 可 以 利用 类 似 Word2vec 的 一 些 算法 来 进行 训练 ， 其 中 的 信息 输出 主要 的 
含义 是 文本 里 的 词 所 包含 的 语义 信息 ， 所 使 用 的 向 量 表 示 。 

关键 词 与 文档 在 语义 表示 上 是 一 致 的 ， 利 用 BERT 的 编码 能 力 ， 能 够 取得 较 好 的 结果 。 
但 是 缺点 也 很 明显 ， 首 先 ， 不同 的 语义 编码 模型 会 产生 不 同 的 结果 ; 另外 ，BERT 只 能 接受 
限定 长 度 的 文本 , 使 得 在 处 理 长 文本 时 需要 进一步 先 提取 摘要 等 预 处 理 措施 , 增加 了 时 间 复 
杂 度 ， 降 低 了 准确 率 ， 因 此 ， 本 文 将 KeyBERT 算法 应 用 于 摘要 文本 的 关键 词 提取 ， 具 有 一 
定 的 针对 性 和 实用 性 。 
4.3 语义 相似 度 计算 

本 文 从 不 同 的 文本 角度 出 发 , 对 摘要 和 全 文 文本 有 针对 性 的 进行 关键 词 提取 处 理 , 采用 
不 同 的 适应 性 算法 提取 出 不 同 的 关键 词 集合 , 融合 多 种 语言 特征 作为 提取 准则 , 较为 全 面 考 


的 情况 , 经 TF 和 IDF 双重 选择 得 到 的 特征 


虑 到 不 同 特征 对 关键 词 提 取 的 影响 。 本文 提 出 的 融合 处 理 算法 核心 是 语义 相似 度 计 算 ， 对 不 
同 关 键 词 集 进行 相似 度 处 理 形成 新 的 关键 词 集 , 新 的 关键 词 集 能 够 担任 核心 词 的 角色 , 成 为 
表征 文章 内 容 的 标签 。 关 键 词 集 的 相似 度 处 理 过 程 与 文本 相似 度 计算 过 程 类 似 , 分 词 过 程 已 
在 文本 预 处 理 阶 段 完成 , 上 且 提 取出 的 候选 关键 词 集 已 具有 代表 性 , 直接 对 其 进行 向 量化 处 理 
即 可 。 由 于 目前 缺乏 高 覆盖 度 的 词汇 知识 库 ， 因 此 采用 语义 向 量 捕获 词汇 关系 。 

Word2vec 在 训练 词 向 量 中 可 以 根据 给 定 的 语 料 信息 将 每 个 词汇 向 量化 ， 在 此 过 程 中 优 
化 内 部 的 训练 模型 机 制 ， 实 现 word embedding， 是 目前 主流 的 词汇 向 量化 手段 ， 它 的 主要 模 
型 包括 CBOW 模型 和 Skip-gram 模型 。 对 向 量化 后 的 词汇 进行 相似 度 计算 ， 本 文采 用 余弦 
相似 度 计算 词汇 向 量 间 的 相关 性 , 余弦 相似 度 用 向 量 空间 中 两 向 量 夹 角 的 余弦 值 作为 衡量 
个 个 体 之 间 差异 的 大 小 。 
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余弦 值 越 接近 1， 表 明 两 个 向 量 的 夹 角 越 接近 0 度 ， 则 两 个 向 量 越 相似 ， 反 之 ， 当 余弦 
值 越 接近 于 0， 表 明 两 个 向 量 的 夹 角 越 接 近 90 度 ， 两 个 向 量 越 不 相似 。 在 案例 文本 通过 构 
建 空间 向 量 表示 为 两 个 向 量 A B 后 ， 可 以 通过 计算 向 量 相似 度 来 衡量 两 个 词汇 的 语义 相 
似 度 。 
5 实验 与 分 析 
5.1 文本 预 处 理 

获取 数据 : 为 了 保证 模型 的 顺利 构建 以 及 模型 输出 的 准确 性 , 实验 数据 需 选 取 一 篇 科技 
文献 且 该 文献 必须 包含 摘要 、 关 键 词 和 正文 部 分 。 本 文 实验 以 科技 文献 中 的 自动 化 领域 的 一 
篇 文章 为 例 进 行 实验 ,选取 此 篇 文章 的 主要 原因 是 : 一 是 文章 专业 术语 较 多 , 便于 开展 学 习 
训练 和 语义 结合 ， 二 是 文本 主题 特点 显著 ， 便 于 捕捉 词 向 量 特征 。 

文本 预 处 理 : 将 采集 的 实验 文本 进行 切 分 ， 对 实验 文本 正文 部 分 进行 预 处 理 操作 ,包括 
分 词 、 词 性 标注 和 停 用 词 过 滤 ， 文本 摘要 部 分 可 不 单独 进行 预 处 理 〈KeyBert 模型 封装 了 分 
词 等 预 处 理 操作 ) 。 

以 一 篇 自动 化 领域 科技 文献 为 例 ( 以 下 实验 均 以 此 文献 为 例 ) ， 对 其 主要 研究 内 容 进行 


分 词 和 词性 标注 处 理 ， 其 结果 如 下 。 
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RATA: 针对 传统 程序 设计 方法 难以 对 县 有 并 发 、 协 调 、 竞争 等 复杂 事件 的 PLC 
控制 系统 编程 的 问题 ， 探 讨 了 一 种 基于 Petri 网 模型 的 PLC 程 序 设 计 方 法 ， 该 方法 利 
用 Petri 网 的 图 形 性 质 和 对 并 发 事件 建 模 的 能 力 ， 可 简便 、 直 观 地 构建 PLC 控 制 系统 


程序 ， 并 能 对 控制 系统 性 能 进行 分 析 ， 以 确认 程序 的 合理 性 。 
图 3 原 句 输出 结果 


分 词 后 : 针对 /传统 /程序 设计 /方法 /难以 /对 /县 有 /并 皮 /、/ 协 调 /、/ 竞 争 /等 / 夏 
杂 / 事 件 /的 /PLC/ 控 制 系统 /编程 /的 /问题 /，/ 探 讨 / 了 /一 种 /基于 /Petri/ 网 / 模 
型 /的 /PLC/ 程 序 设计 /方法 /，/ 该 /方法 /利用 /Petri/ 网 /的 /图 形 /性 质 / 和 /对 /并 
点 /事件 / 建 模 /的 /能 力 /，/ 可 /简便 /、/ 直 观 / 地 /构建 /PLC/ 控 制 系统 /程序 /，/ 


并 /能 /对 /控制 系统 /性 能 /进行 /分 析 /，/ 以 /确认 /程序 /的 /合理 性 /。 
图 4 分 词 输出 结果 
对 上 述 分 词 后 的 科技 文献 段落 进行 去 停 用 词 处 理 ， 得 到 的 结果 如 下 : 


去 除 停 用 词 后 : 传统 /程序 设计 /方法 /难以 /具有 /并 农 // 协 调 /竞争 /复杂 /事件 / 
PLC/ 控 制 系统 /编程 /问题 /探讨 /一 种 /基于 /Petri/ 网 /模型 /PLC/ 程 序 设 计 / 方 法 / 
方法 /利用 /Petri/ 了 网/ 图形/ 性质/ 并 发 /事件 / 建 模 /能 力 /简便 /直观 /构建 /PLC/ 控 


制 系统 /程序 /能 /控制 系统 /性 能 /进行 /分 析 / 确 让/ 程序 /合理 性 
图 5 去 停 用 词 输出 结果 


结果 显示 ， 利 用 jieba 第 三 分 词 库 可 以 过 滤 掉 绝 大 部 分 的 停 用 词 与 无 效 词 ， 这 些 介词 与 
连接 词 不 但 会 增加 自动 标 引 的 工作 量 ， 也 会 干扰 到 标 引 精度 ， 经 过 有 效 的 数据 清洗 工作 ， 


得 到 较为 清晰 的 数据 材料 以 供 后 续 文本 标 引 使 用 。 
5.2 关键 词 提取 


文本 摘要 部 分 已 经 是 文本 的 重点 内 容 , 使 用 keyBert 算法 直接 设置 抽取 权重 前 N 个 词语 


作为 抽取 出 候选 关键 词 集合 A。 


文本 正文 部 分 经 过 文本 预 处 理 后 生成 一 组 候选 词 集合 ， 然 后 使 用 TF-IDF 算法 逐 词 裔 历 


候选 词 集合 ， 每 个 词语 节点 的 最 终 得 分 进行 由 大 到 小 排序 ， 抽 取得 分 高 的 前 N 个 词语 ， 作 


为 候选 关键 词 集合 B。 


按照 实验 思路 ， 对 此 篇 论文 的 摘要 和 正文 分 别 进行 标 引 词 提 取 实 验 ， 


个 数 阔 值 统一 设置 为 10， 得 到 的 结果 如 下 : 
表 1 实验 1- 摘 要 Keybert 处 理 结果 


序列 候选 词 权重 序列 候选 词 
1 程序 设计 0.6431 6 编程 
控制 系统 0.5610 7 模型 
3 Petri 0.5368 8 程序 
4 PLC 0.4811 9 性 质 
5 图 形 0.3965 10 性 能 


其 中 ， 候 选 标 引 词 


权重 
0.3919 
0.3891 
0.3872 
0.3804 
0.3787 


表 2 实验 2- 正 文 TF-IDF 处 理 结果 


序列 候选 词 权重 序列 候选 词 权重 
1 Petri 0.6459 6 状态 0.5046 
2 PLC 0.6215 7 事件 0.4846 
3 token 0.5846 8 系统 0.4372 
4 程序 0.5746 9 控制 0.3432 
5 模型 0.5546 10 库 所 0.2429 
对 比 上 述 对 文章 结构 不 同 的 处 理 方法 结果 , 可 大 致 看 出 结果 存在 共性 , 这 


是 因为 摘要 已 

经 是 对 全 文 的 总 结 , 摘要 中 出 现 的 词语 大 概率 将 会 是 全 文 的 主题 , 而 这 些 词 将 会 在 正文 中 重 
复出 现 体现 研究 主旨 ， 前 者 语义 特征 捕捉 较为 精确 的 总 结 性 质 的 短文 本 ， 后 者 通关 
有 捉 词 频 特 征 的 全 部 正文 。 不 同 候选 词 集 具有 共性 和 相似 性 才 有 必要 进行 下 一 步 融合 处 理 。 
5.3 关键 词 融 合 处 理 

对 于 已 经 生成 的 两 组 关键 词 集合 A 和 B 做 融合 处 理 并 生成 最 终 的 关键 词 集合 C 作为 最 
终 的 关键 词 集 。 

(1) 候选 词 的 特征 权 值 计算 。 

参数 设置 : 因为 这 里 是 个 层 层 推进 数值 对 比试 验 , 所 以 参数 的 设置 不 需要 通过 严格 试验 
取得 ， 给 它们 赋 一 定 值 并 不 影响 试验 结果 的 对 比 ， 只 要 保持 同一 参数 始终 保持 同一 值 即 可 。 
Keybert 对 摘要 的 标 引 词 结果 记 为 A 集 ， 对 应 权 值 记 为 Qa; 改进 的 TF-IDF 对 文本 标 引 词 结 
果 记 为 B 集 ， 对 应 权 值 记 为 Qb。 融 合 处 理 与 权 值 计算 见 下 式 。 


过 TF-IDF 


A={4a,,a,,Q;,...,a,} 


Qa ={Qa,,Qa,,Qay,,...,Qa,} 
B= {b,,b,,b,,....b,} 


Qb = {Qb,,Qb,, Qb,,...,Ob, } 
上 式 中 ，ax 表示 不 同 的 Keybert 候选 标 引 词 ，Qax 为 对 应 的 权 值 ，x 为 A 集 候选 标 引 词 
个 数 ，b; 表示 不 同 的 改进 TF-IDF 候选 标 引 词 ，Qby 为 对 应 的 权 值 ，y 为 B 集 候 选 标 引 词 个 
Qa 与 Qb 已 进行 归 一 化 处 理 ， 取 值 区 间 均 为 (0,1)， 因 此 可 进行 权 值 倒 加 处 理 。 相 似 度 
融合 界限 值 为 w ， 两 词 间 相 似 度 高 于 或 等 于 Q 值 定义 为 相似 ， 且 可 进行 融合 处 理 。 假 设 A 
标 引 词 集 x 为 4，B 标 引 词 集 y 为 6， 标 引 词 al 与 bo 两 者 相似 ， 标 引 词 a 与 bg、b6 三 者 相 


似 ， 则 融合 处 理 后 的 标 引 词 集 C 如 下 。 


C ={c =0c =a,,C, =A,,C, =a,,C, =b,,c, =b,,c, =b,} 


Oc ={Qc, = Qa, + Qb,, 
Qc, = Qa, + Ob, + Ob,, 
Qc, =Qa,,Qc, = Oa, 
Qc, = Qb., Qc, = Qb,,Qc, = Qb,} 
(2) 合并 与 排序 。 
因 A 集 为 摘要 类 型 标 引 词 ， 其 词 特征 本 身 具 有 较 高 规范 性 ， 其 表达 含义 更 能 体现 科技 
文献 主旨 信息 ， 所 以 此 处 候选 词 融合 过 程 中 A 集 优先 级 高 于 B 集 优 先 级 ， 作 并 处 理 。 将 六 
分 包含 重 登 的 候选 词 合并 将 它们 的 权重 值 相 加 ， 最 后 将 所 得 的 每 个 候选 词 的 值 按 降序 排列 。 
ja (3) 输出 标 引 词 。 
= 从 降序 排列 的 候选 词 中 抽取 前 n 个 词 ， 作 为 最 终 的 关键 词 输出 。 最 关键 的 参数 是 相似 度 
界限 w ， 即 定义 多 大 的 a 确定 为 候选 词 相似 ,综合 测试 & = 0.8 时 融合 效果 较 好 ， 限 制 标 引 
结果 序列 为 5， 即 融合 处 理 后 排名 前 5 的 词 作为 最 终 标 引 词 集 ， 结 果 如 下 。 
标 引 结果 C 集 = 伍 序 设计 、 控 制 系统 、Petri、PLC、 模 型 } 


对 照 作 者 给 出 的 参考 关键 词 集 如 下 。 


F 


ll 


> 参考 关键 词 集 = {Petri 网 、PLC、 控 制 模 型 、 程 序 设计 eT 

cc 5.4 结果 分 析 

= 以 文献 作者 列 出 的 关键 词 作 为 参考 关键 词 , 分 析 结果 可 知 标 引 模型 的 输出 结果 与 参考 关 
O 键 词 集 有 较 高 的 相似 性 ， 标 引 效果 较 好 。 实 验 结果 表明 ， 通 过 本 文 所 提出 的 多 特征 融合 的 自 


动 标 引 模型 对 抽取 出 的 两 组 关键 词组 融合 处 理 可 以 得 到 较为 准确 的 输出 结果 , 因此 基于 多 特 
征 融合 的 文本 自动 标 引 方法 是 可 行 的 ， 标 引 准 确 率 较 高 。 
6 结语 

本 文 根 据 多 特征 融合 的 基本 思路 , 提出 了 基于 多 特征 融合 方法 的 自动 标 引 模型 。 该 模型 
分 为 输入 、 候 选 词 提取 、 候 选 词 融合 处 理 和 输出 四 部 分 ， 其 中 候选 词 提取 分 别 采 用 Keybert 
方法 混和 TF-IDF 方法 处 理 摘要 和 正文 并 提取 出 两 组 候选 关键 词 ， 在 候选 词 融合 处 理 部 分 核 
心 技术 采用 余弦 相似 度 计算 。 该 模型 在 一 定 程度 上 既 集合 了 两 种 算法 的 优点 ， 又 综合 考虑 到 
文本 标 引 的 准确 性 和 全 面 性 , 对 于 文献 自动 标 引 关 键 信息 提供 了 一 种 可 行 思路 , 具有 一 定 的 
应 用 价值 。 
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Automatic indexing of scientific and technological documents based on multi-feature fusion 
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Abstract: [Purpose/Significance]With the advent of the Big Data era, users are in urgent need of 
efficient access to valuable information in the midst of extremely complex information, especially 
in literature reading, where it is crucial to quickly grasp the core content and topic ideas of the text. 
[Method/Process] This study proposes to use both text body and abstract as citation sources, and 
combine the word frequency features of statistical learning method and semantic features of 
machine learning method to obtain text candidate citation words, and then combine the advantages 
of both methods by semantic similarity calculation to reflect the accuracy and comprehensiveness 
of the citation results as a whole.[Result/Conclusion] The experiments show that automatic text 
citation based on multi-feature fusion is feasible and has better citation results. 
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